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) ”编者 按 :用 户 画 像 是 真实 用 户 的 虚拟 代表 ,是 建立 在 一 系列 真实 数据 上 的 目标 用 户 模型 。 构 建 用 户 画 像 【 
: 的 过 程 是 了 解 用 户 的 过 程 ,通过 将 具象 的 信息 数据 抽象 为 用 户 特征 ,可 以 精准 地 定位 目标 群体 ,预测 用 | 
) 户 的 真实 需求 和 潜在 需求 ,为 个 性 化 服务 、 推 荐 系统 、 精 准 营销 等 带 来 巨大 的 应 用 价值 。 本 组 关于 用 户 【 
: 画像 的 论文 ,分 别针 对 学 术 博 客 .网络 群体 、 微 信用 户 .图 书馆 用 户 进行 用 户 画 像 模型 构建 研究 ,可 为 用 | 
: 户 画像 领域 相关 研究 提供 借鉴 。 | 


学 术 博 客 用 户 画 像 模型 构建 与 实证 


以 科学 网 博客 为 例 


目 责 润 : 王 琦 * 
! 江苏 大 学 图 书馆 镇 江 212013 “江苏 大 学 科技 信息 研究 所 ”镇江 212013 


CNU 摘要 : [目的 /意义 ] 用 户 画像 理论 可 用 于 标记 学 术 群 体 的 行为 特征 ,为 精准 识别 用 户 .服务 学 术 型 社交 平 
精准 营销 、 改 善 冷 启动 时 期 用 户 体验 提供 依据 和 参考 。[ 方 法 /过 程 ] 利用 Python 和 RR 语言 编写 获取 和 处 

王公 开 用 户 行为 数据 的 程序 ,从 博客 的 基本 属性 、 积 极 性 权威 性 \ 博 文 影响 力 、 兴 趣 偏好 等 5 个 维度 构建 用 户 

画像 概念 模型 ,以 科学 网 博客 用 户 行为 数据 为 例 , 开 展 实证 研究 。[ 结果 /结论 ] 提出 刻画 学 术 博 客 用 户 特征 的 

指标 和 计算 方法 ,表明 用 户 画像 模型 对 学 术 社交 平台 的 管理 和 运营 具有 一 定 的 理论 意义 和 应 用 价值 。 
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分 类 “等 方法 构建 用 户 画像。 
[一 | 


交互 "nL 计 yy /As A C E24] 有 早 提 LT F 户 田 像 现 有 人 研究 中 存在 许多 基于 社交 网 络 平台 的 用 户 画 
CY 像 研究 。A、Raghuram 等 中 提出 了 一 种 高 效 的 监督 机 
(TBr Profile) 的 概念 ,用 户 画 像 是 真实 用 户 的 虚拟 代 
0 je ee 器 学 习 方法 ,将 Twitter 用 户 分 为 6 个 兴趣 类 别 。R. 
表 ,是 建立 在 一 系列 真实 将 据 上 的 目标 用 户 模型 真 a im 入 (0 证 二 ave Eaves ANN NS 
实数 据 主 要 指 用 户 信息 数据 ,包括 前 态 数 据 ( 相 对 稳定 。 ee a He et 
的 用 户 属性 数据 ) 和 动态 数据 (不 断 变化 的 用 户 行为 et se 
数据 ) 两 个 部 分 。 用 户 画 像 是 基于 用 户 属性 和 用 户 行 型 的 有 效 性 。 韩 梅 花 等 将 用 户 画 像 与 阅读 疗法 结 


为 抽取 出 一 个 或 一 类 用 户 的 标签 ,对 用 户 信息 进行 结 合 起 来 ,通过 分 析 微 博文 本 ,计算 抑郁 情感 指数 ,得 到 
构 化 描述 。 构 建 用 户 画 像 的 过 程 也 是 了 解 用 户 的 过 用户 画像 。 王 凌 雷 等 “以 知 乎 为 例 , 从 用 户 资历 、 参 
程 , 通 过 将 具象 的 信息 数据 抽象 为 用 户 特征 ,可 以 精准 与 度 ` 回 答 质量 发展 趋势 4 个 方面 构建 用 户 画 像 。 刘 
地 定位 目标 群体 , 预测 用 户 的 真实 需求 和 潜在 需求 。 ”海鸥 等 “深入 挖 据 QQ 群 \ 天 涯 论坛 ` 人 人 网 等 社交 平 
目前 ,用 户 画 像 被 广泛 应 用 于 精准 营销 、 智 能 推 ” 台 并 构建 用 户 画像 模型 。 崔 超 等 ” 基于 用 户 画 像 理 
荐 2 产品 研发 中 等 领域 ,多 采用 统计 7 、 贝 叶 斯 网 论 、 知 识 与 用 户 间 的 关系 提出 了 知识 社区 用 户 画 像 数 
络 呈 .机 器 学 习 5 -0 、 主 题 模型 '”1 、 聚 类 分 析 上 .层次 ” 据 采 集 和 模型 构建 实现 思路 。 余 传 明 等 "对 股吧 的 
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用 户 发 文 内 容 进 行 深 度 学 习 , 结 合股 吧 用 户 的 粉丝 数 
量 、 影 响 力 .关注 量 等 行为 特征 ,提出 一 种 “行为 -内 
容 ” 融合 模型 ,识别 噪声 投资 者 这 一 特定 用 户 画 像 。 陈 
天 歌 ”从 不 同 角度 刻画 微 信用 户 性 格 画 像 和 多 个 品 
牌 画 像 ,以 本 我 、 自 我 和 超 我 为 逻辑 脉络 ,对 各 版 本 夯 
像 进 行 对 比分 析 。 周 文静 将 加 权 概 念 兴趣 、 加 权 关 
键 字 兴 趣 合 并 为 用 户 兴趣 维度 画像 ,与 用 户 基本 属性 
维度 画像 一 起 组 成 最 终 的 校园 论坛 用 户 画 像 。 
社交 网 络 平台 按 其 是 否 专门 用 于 学 术 交 流 , 可 分 
为 学 术 型 和 非 学 术 型 社交 平台 两 类 。 现 有 的 用 户 画 像 
研究 集中 于 非 学 术 型 社交 平台 ,对 学 术 型 社交 平台 关 
注 较 少 。 学 术 型 社交 平台 的 用 户 群 体 是 对 科研 工作 感 
兴趣 的 科研 工作 者 ,他们 利用 平台 创建 个 人 信息 ` 发 布 
种 妍 成 果 、 开 展 学 术 交 流 , 实 现 知 识 的 交流 ,传播 与 共 
吝 ? 体 现 了 Science2.0 开放 共享 和 协作 等 现代 科学 研 


据 , 具 有 一 定 的 学 术 价值 和 现实 意义 。 


博客 和 博文 是 网 络 社交 平台 上 的 两 类 主要 实体 。 
任何 学 者 都 可 以 在 科学 网 实名 注册 成 为 博客 ,通过 发 
表 博 文 参与 学 术 交流 。 博 客 的 所 有 网 络 行为 ,例如 注 
册 发布. 分类、 标注 阅读、 推荐 .评论 .下 载 .引用 \ 访 
问 .留言 和 建立 好 友 关 系 等 ,都 被 平台 记录 下 来 ,本 文 
将 该 记录 称 之 为 用 户 行为 数据 。 用 户 行为 数据 越 丰 
富 , 越 能 精确 刻画 用 户 特 征 ,但 是 受 搜集 成 本 .技术 及 
隐私 保护 的 限制 ,部 分 用 户 行为 数据 难以 获取 。 为 了 
开展 实证 研究 ,本 文采 集 到 20 个 数据 项 ,涵盖 了 用 户 
主要 行为 数据 ,如 表 1 所 示 , 其 中 a - a 是 用 户 的 基本 
情况 (B) ,as - av 反映 博客 使 用 平台 的 积极 性 (V) ,a,、 
ai -au 反 映 用 户 在 博客 平台 的 权威 性 (Q) ,as ay an 


则 从 博文 阅读 和 博文 互动 两 个 方面 反映 了 博文 影响 力 

情况 (1) ,ao ax 可 以 提取 描述 主题 偏好 的 特征 词组 

(G)。 用 户 行为 数据 分 为 数值 型 和 字符 型 两 类 ,为 了 

利用 这 些 数据 对 学 术 博 客 画 像 , 本 文 提 出 了 5 个 维度 

的 用 户 画 像 模型 (UPM) ,用 公式 (1) 表 示 如 下 : 
UPM= 1B,V,Q,I,G| 


究 理 念 。 本 文 以 科学 网 博客 为 例 ,将 获取 的 用 户 属性 
和 入 为 数据 归纳 为 博客 基本 属性 积极性、 权威 性 、 影 
| 偏好 等 5 个 维度 的 指标 , 据 此 开展 学 术 博 
像 实 证 研究 ,对 现 有 的 研究 进行 补充 和 完善 。 
所 记 画像 的 结果 可 用 于 平台 的 知识 产品 精准 推送 服 
用 户 识别 ,为 学 术 交 流 平台 建设 与 运营 提供 决策 依 
表 1 科学 网 博客 用 户 行为 数据 项 


(1) 


编号 数据 名 称 注释 
| 户 了 D 用 户 唯 一 标识 符 ,为 用 户 属性 信息 ,可 直接 获 
2 姓名 用 户 唯 一 标识 符 对 应 的 用 户 姓名 ,为 用 户 属性 信息 ,可 直接 获 于 
人 研究 领域 用 户 注 册 时 选择 的 学 科 分 类 和 研究 方向 ,为 用 户 属性 信息 ,可 直接 获取 
r= 头衔 涵盖 用 户 的 学 历 或 者 职称 情况 ,具有 等 级 性 ,为 用 户 属性 信息 且 能 反映 用 户 权威 性 ,可 直接 获取 

Os 博文 数 和 户 创作 的 博文 数量 之 和 ,与 积极 性 正 相关 
a6 活跃 度数 平台 给 予 用户 登 录 .分享 .推广 等 行为 的 奖励 ,与 积极 性 正 相 关 , 可 直接 获取 
a7 分 享 数 用 户 在 博客 平台 的 转发 博文 次 数 之 和 ,与 积极 性 正 相 关 , 可 直接 获取 
ag 主题 数 用 户 在 博客 平台 发 布 主题 帖 的 次 数 ,与 积极 性 正 相关 ,可 直接 获 
a9 回帖 数 用 户 在 博客 平台 回复 主题 帖 的 次 数 ,与 积极 性 正 相关 ,可 直接 获 
al0 在 线 时 长 用 户 在 平台 的 累计 使 用 时 长 ,与 积极 性 正 相关 ,可 直接 获取 
all 好 友 数 与 用 户 建立 好 友 关系 的 人 数 ,与 权威 性 正 相关 ,可 直接 获取 
al2 主页 访问 数 博客 主页 被 其 他 用 户 访问 的 人 次 总 数 ,与 权威 性 正 相 关 , 可 直接 获取 
al3 被 推荐 总 数 和 户 发 布 的 博文 被 其 他 用 户 推荐 到 平台 首页 的 人 次 总 数 ,与 权威 性 正 相 关 , 从 博文 数据 集中 统计 
al4 精 选 博文 数 用 户 创 作 博 文中 被 游 选 为 的 精 选 博文 篇 数 ,与 权威 性 正 相 关 , 从 博文 数据 集中 统计 
als 阅读 数 用 户 的 博文 被 其 他 用 户 阅 读 的 次 数 ,与 博文 影响 力 正 相关 ,从 博文 数据 集中 统计 
al16 被 评论 总 数 用 户 发 布 的 博文 被 其 他 用 户 评论 的 总 次 数 ,从 博文 数据 集中 统计 
al7 被 推荐 数 用 户 博 文 被 其 他 用 户 推荐 到 平台 首页 的 次 数 ,与 博文 影响 力 正 相关 ,从 博文 数据 集中 统计 
al8 被 评论 数 用 户 博 文 被 其 他 用 户 评论 的 次 数 ,与 博文 影响 力 正 相关 ,从 博文 数据 集中 统计 
al9 系统 分 类 用 户 为 博文 添加 系统 给 定 的 分 类 标签 ,可 用 于 检索 和 分 类 ,可 直接 获 
a20 个 人 分 类 用 户 为 博文 提炼 出 的 分 类 标签 ,可 用 于 检索 和 分 类 ,可 直接 获取 
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以 科学 网 博客 为 例 [J]. 图 书 情报 工作 ,2019 ,63(22 ) :13 -20. 


2.1 基本 属性 
本 文 将 研究 领域 (a ) 视 为 博客 基本 属性 ,该 参数 


息 可 以 反映 用 户 的 学 术 地 位 。 博 客 内 容 权威 性 的 衡量 
可 通过 博客 内 容 传播 覆盖 度 来 表示 , 随 着 关注 博客 动 


能 比较 准确 地 描述 其 所 属 学 科 领 域 。 此 外 ,用 户 id、 学 
历 、 职 称 等 客观 参数 是 静态 的 或 一 段 时 间 内 相对 稳定 
旦 公开 的 数据 ,利用 平台 公开 渠道 可 以 获取 此 类 数据 。 
博客 用 户 在 注册 时 所 填写 职称 、 学 历 等 信息 ,本 文 统一 
归 类 到 “头衔 ”, 即 数据 项 a/。 由 于 这 类 数据 规范 性 不 
太 好 ,本 文 对 其 作 了 等 级 量化 处 理 , 方 法 如 表 2 所 示 。 
这 样 ,博客 基本 属性 可 以 表达 如 下 : 

B = | EduPos, ResF'| (2.) 

表 2 头衔 信息 等 级 量化 处 理 
等 级 头衔 信息 
0 “无 

工 “本 科 以 下 “本 科 ” 

i “助理 教授 “助理 研究 员 ”“ 助理 编辑 “研究 生 ”“ 硕士 在 读 “ 硕 士 ” 
“讲师 “编辑 “博士 在 读 ” 
“副教授 ”“ 副 研究 员 ”“ 副 高 “ 副 主 任 “ 副 编审 “博士 后 “博士 ” 
“院士 “教授 一 研究员 “编审 ” 


( 太 积 极 性 指标 (V) 与 博文 数 .活跃 度数 .分 享 数 . 主 
题 焕 、 回 帖 数 ,在 线 时 长 等 博客 行为 数据 正 向 相关 ,本 
驹 浊 这 6 项 数据 的 箭 权 值 定义 为 博客 积极 性 指标 ,用 


(Co i 
公交 (3 ) 表 示 : 


V=>owo'aw (3) 
其 中 a 表示 行为 数据 项 a - aw 的 归 一 化 值 ,w 为 
其 民 重 系数 。 归 一 化 计算 公式 如 下 : 


一 Q=a/a、 (4) 
-太庙 权 法 利用 各 个 数据 项 所 提供 信息 的 不 确定 性 来 
确定 各 项 权重 ,适用 于 各 类 赋值 问题 ,计算 行为 数据 项 
权重 系数 的 方法 如 公式 (5) 所 示 ; 


可 l-e 
”ZL-e) 加 


其 中 ,e 为 行为 数据 项 信息 烂 , 计 算 方 法 如 公式 
(6) 所 示 : 


1 QQ Q 
和 (6) 


这 里 公式 (3) 取 指标 V 的 前 25% 为 高 积极 性 群体 
(H) ,前 50% 为 中 等 积极 性 群体 (M) ,前 75% 为 普通 
积极 性 群体 (C ) ,其 余 为 低 积极 性 群体 (L) 。 阔 值 的 设 
定 由 平台 管理 方 确定 ,根据 实际 需求 调整 可 获得 不 同 
积极 性 群体 。 
2.3 ”权威 性 

权威 性 主要 受到 用 户 自 身 的 学 术 地 位 和 博客 内 容 
权威 性 的 影响 。 数 据 项 a4 包含 的 用 户 学 历 和 职称 信 


态 的 人 数 增多 ,博文 的 传播 速度 也 会 随 之 变 快 ,博客 权 
威 性 也 越 大 “” 。 传 播 覆 盖 度 与 博客 的 好 友 数 、 主 页 访 
问 数 、 精 选 博 文 数 ,被 推荐 总 数 等 博客 行为 数据 正 向 相 
关 。 本 文 将 这 5 项 数据 的 炉 权 值 定义 为 博客 权威 性 指 
标 , 用 公式 (7) 表 示 : 
Q=>o:B (7) 

公式 (7) 可 参照 公式 (4) -公式 (6) 处 理 数据 项 和 
确定 权重 系数 ,Q 指标 阔 值 划分 标准 与 V 指标 相同 。 
2.4 博文 影响 力 

博文 影响 力 可 以 量化 ,是 以 博文 内 容 的 形式 改变 
其 他 用 户 思想 和 行为 (阅读 、 推 荐 .评论 等 行为 ) 的 能 
力 ”。 张 晓 阳 等 ” 、 郑 超 等 ”扩大 指数 的 适用 范 
围 ,基于 博文 阅读 数 .被 评论 数 ,综合 考虑 博文 内 容 的 
质 与 量 ,评估 学 术 博 客 影响 力 。 本 文 在 前 人 的 基础 上 
进一步 完善 博文 影响 力 评估 指标 体系 ,从 博文 阅读 数 


和 博文 互动 数 (被 评论 数 和 推荐 数 ) 两 个 视角 量化 博 
文 影响 力 。 根 据 b 指数 的 推论 ,定义 观测 统计 量 博 文 
阅读 数 (c) 和 博文 互动 数 (q): 
C= x/ (8) 
q= V (a +as ) (9) 
h 指数 的 数学 公式 如 下 : 
h.=max{ni:n<c) ;hs =max|r,:r, <q| (10) 


其 中 m 是 观测 量 c 降序 排列 的 博文 的 序 次 ,r, 是 
观测 量 q 降序 排列 的 博文 的 序 次 。 实 际 应 用 中 发 现 ,h 
指数 存在 同 值 且 取 值 水 平 较 低 的 情况 。 由 于 学 术 博 客 
的 社交 属性 ,用 户 行为 数据 存在 稀 玖 性 ,上 述 现象 更 为 
显著 。 针 对 上 指数 的 不 足 , 金 碧 辉 等 ”提出 了 R 指 
数 。R 指数 是 h 核 内 论文 总 被 引 频 次 的 平方 根 , 其 度 
量 结果 可 以 有 效 区 分 同 值 h 指数 且 不 改变 h 核 的 形 
态 。R 指数 的 数学 公式 如 下 : 
R= VE, (11) 
式 中 ci 表示 bh 核 内 第 j 篇 论文 的 被 引 频 次 , 且 ei 
>=>h。 此 处 ei 表示 上 核 内 第 j 篇 博文 的 阅读 数 或 互动 
数 且 he |h,,h,1。 将 h 指数 与 R 指数 组 合 使 用 ,可 以 
有 效 弥 补 h 指数 的 不 足 , 更 好 地 评估 和 区 分 博客 博文 
影响 力 ,用 公式 (12) 表 示 : 
1=|{(h.,R.),(h,,R,)| (12) 
其 中 ,h. 的 前 25% 为 高 阅读 影响 力 群 体 ( 瑟 ) ,前 
50% 为 中 等 阅读 影响 力 群 体 (M) ,前 75% 为 普通 阅读 
影响 力 群 体 (C) ,其 余 为 低 阅读 影响 力 群 体 ( 工 ) ;h, 的 


Q 
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前 25% 为 高 互动 影响 力 群体 (H) ,前 50% 为 中 等 互动 
影响 力 群 体 (M) ,前 75% 为 普通 互动 影响 力 群 体 (C)， 
其 余 为 低 互动 影响 力 群 体 (L) 。 
2.5 兴趣 偏好 

兴趣 是 人 们 活动 的 巨大 动力 ,兴趣 偏好 是 用 户 创 
作 博 文 时 做 出 的 理性 的 .具有 倾向 性 的 选择 ,学术 博客 
兴趣 俩 好 反映 了 学 者 的 学 术 兴趣 方向 ,通常 可 以 用 知 
干 主题 词 (关键 词 ) 来 描述 。 科 学 网 博客 平台 为 博文 
设置 了 “系统 分 类 ”和 “个 人 分 类 ”两 种 分 类 途径 ,博客 


文 记录 当中 ,有 效 评论 次 数 累 计 达 到 313 余 万 次 ,有 效 
推荐 次 数 累 计 达 到 283 余 万 次 ,总 阅读 次 数 超过 14. 29 
亿 次 ,可 见 科学 网 博客 具有 和 较 大 的 影响 力 ,对 学 术 交 流 
和 传播 具有 一 定 意义 。 
3.2 结果 计算 与 分 析 

本 文 利用 R 语言 自 编 函数 计算 V 指标 和 Q 指标 
各 数据 项 权重 系数 ,结果 如 表 3、 表 4 所 示 : 

表 3 V 指标 各 数据 项 信息 类 与 权重 系数 


数据 项 as a6 a7 ag ag al0 


将 其 发 表 的 博文 归 类 到 某 一 系统 分 类 的 同时 ,还 可 以 
采用 个 人 分 类 进一步 细 分 。 如 果 将 系统 分 类 视 为 第 一 
类 节点 ,将 个 人 分 类 视 为 另 一 类 节点 , 则 这 两 类 节点 刚 
好 构成 二 分 网 络 关系 。 

一 二 分 网 络 属于 复杂 网 络 的 一 种 ,通过 构建 二 分 网 
络 提 取 特征 词组 可 以 描述 产品 特征 、 用 户 兴 趣 爱 
巡 导 。 若 给 定 无 向 图 G = (V,E) ,对 本 文 而 言 ,顶点 
VCB 虽 为 av(V ) 和 am(V)。 显 然 ,V=VUV，Vn 
VE 且 Ve=(u,v) eE, 均 有 ueV,veV,, 满 足 二 
分 网 络 条 件 。 

@ 〇 一 般 地 , 若 将 系统 分 类 词组 记 为 V1 ,用 户 分 类 词 
继 记 为 V2 , 则 二 分 网 络 记 为 ; 

© G=(V,,V,,E) (13) 
q 本 文采 用 及 语言 bipartite 包 , 创 建 了 博客 的 “系统 
分 灾 -个 人 分 类 ”二 分 网 络 ,利用 computeModules 函数 
划 符 网 络 社区 , 按 权重 排序 提取 到 分 类 词组 ,以 此 描述 
博客 兴趣 偏好 。 


3 学术 博客 用 户 画像 实证 分 析 
3.1 数据 来 源 与 获取 
在 注重 用 户 隐 私 保护 的 前 提 下 ,本 文通 过 Python 


语言 编写 程序 采集 学 术 博 客 用 户 行为 数据 。 采 集 对 象 
选择 拥有 精 选 博文 的 用 户 , 用 户 url 采集 时 间 为 2018 
年 12 月 12 日 ,采集 到 3 799 条 不 重复 用 户 ul。 在 采 
集 博文 数据 之 前 ,对 原始 ul 数据 进行 简单 的 人 工 处 
理 , 噜 除 146 条 因 设 置 隐私 权限 等 因素 造成 数据 缺失 
的 url ,博文 数据 项 获取 时 间 为 2018 年 12 月 19 日 。 

疏 取 数据 过 程 中 构建 了 BlogUsers 和 BlogContents 
两 个 原始 数据 集 。 和 采集 完成 后 对 采集 到 的 数据 进行 必 
要 的 处 理 :BlogUsers 中 与 博文 有 关 的 数据 以 BlogCon- 
tents 实际 获取 数据 为 准 , 集 中 统计 阅读 总 数 、 被 推荐 总 
数 和 被 评论 总 数 等 数据 项 ;博文 数据 中 极端 异常 或 大 
量 数 据 缺 失 的 用 户 予 以 吻 除 ,最 终 得 到 2 339 位 有 效 
用 户 数据 和 437 832 条 博文 数据 。 采 集 到 的 40 万 条 博 
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e 0.817451 0.933 291 0.662779 0.648 624 0.738 674 0.847 091 


mw 0.135013 0.049 338 0.249 407 0.259 876 0.193 276 0.113 091 


表 4 QQ 指标 各 数据 项 信息 粹 与 权重 系数 


数据 项 a4 all al2 al3 al4 


e 0.929 91 0.863 739 0.845 034 “0.782 416 0. 800 648 


w 0.090 061 0. 175 085 0.199 12 0.279 58 0.256 153 


炉 权 法 基于 数据 的 离散 程度 确定 其 权重 ,数据 离 
散 性 越 大 所 含 的 信息 量 越 大 ,信息 的 不 确定 性 越 小 , 信 
息 炉 越 小 ,相应 地 权重 系数 越 大 。 从 表 3 和 表 4 中 可 
以 看 出 V 指标 和 QQ 指标 中 对 结果 贡献 最 大 的 数据 项 
分 别 是 分 享 数 和 被 推荐 总 数 ,贡献 最 小 的 数据 项 分 别 
是 活跃 度数 和 头衔 。 上 述 现象 表明 ,博客 分 享 数 和 被 
推荐 总 数 相 较 于 其 他 数据 项 离散 性 大 ,包含 的 信息 量 
最 大 且 信 息 的 不 确定 性 最 小 ,而 活跃 度数 和 头衔 的 数 
据 特 征 与 之 相反 。 作 为 管理 方 的 科学 网 一 直 鼓 励 用 户 
生成 分享 各 类 内 容 , 将 科学 网 博客 打造 成 活跃 的 学 术 
交流 社区 ,上 述 指标 权重 分 布 特征 可 以 更 好 地 将 持续 
生成 .分享 内 容 的 活跃 用 户 .权威 用 户 识 别 出 来 。 

基于 上 述 权重 系数 ,利用 指标 量化 模型 可 分 别 计 
算 博 客 积极 性 和 权威 性 ,部 分 结果 如 表 S 、 表 6 所 示 : 

表 5 积极 性 指标 TOP20( Rank V) 


排序 ID V 排序 ID V 
有 41 174 0.212 805 4 69 474 0.077 082 
2 281 238 0. 190 206 12 的 051 0. 069 937 
3 558 553 0.158 403 13 235 687 0.069 414 
4 39 946 0.148 529 14 469 915 0.068 064 
5 91 121 0. 129 378 二 2 277 0. 064 922 
6 107 667 0. 105 898 16 1 352 130 0.064 394 
7 350 729 0. 104 976 17 us 0.057 538 
8 280 034 0.097 539 18 43 310 0.056 212 
9 433 662 0.095 634 19 1 750 0.055 006 
10 415 0.088 333 20 69 474 0.077 082 
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表 6 权威 性 TOP20 ( Rank Q) 


排序 ID Q 排序 ID Q 
1 1 0.311 567 11 22 0. 101 708 
2 41 174 0.201 156 12 69 474 0. 101 396 
3 53 483 0. 165 464 13 254 303 0. 101 351 
4 415 0. 148 427 14 279 992 0. 100 941 
3 41 757 0. 148 189 15 2237 0.097 328 
6 40 247 0. 124 394 16 55 745 0.092 425 
2 280 034 0. 122 326 1 111 635 0.086 453 
8 117 889 0.111 436 18 2 984 0.085 491 
9 575 129 0. 108 149 19 39 731 0.082 146 
10 279 177 0. 107 498 20 4 699 0.080 555 


受 数据 归 一 化 影响 ,积极 性 指标 和 权威 性 指标 什 
域 在 [0,1] 之 间 。 从 计算 结果 看 ,两 项 指标 整体 取 值 水 
情 较 低 。 经 过 分 析 , 上 述 现象 的 出 现 可 主要 归结 为 以 


下 3 个 原因 :由 依据 焙 权 法 的 特征 ,如 果 权 重 系数 较 大 
的 数据 项 (如 分 享 数 和 被 推荐 总 数 ) ,用 户 行为 数据 整 
体 表现 不 佳 可 能 会 造成 指标 取 值 水 平 偏 低 。 咏 作为 非 
正式 学 术 社 交 平台 ,学 术 博 客 用 户 行 为 具有 和 较 强 的 随 
意 性 和 不 确定 性 。 受 到 用 户 偏好 和 平台 功能 设置 的 影 
啊 , 少 部 分 用 户 单项 指标 缺失 或 表现 突出 ,会 造成 指标 
取 值 水 平 偏 低 的 情况 。 色 实际 使 用 过 程 中 ,只 有 少 部 
分 用 户 积极 使 用 各 项 功能 并 持续 为 平台 贡献 高 影响 力 
博文 。 观 察 计算 结果 和 计算 活跃 属性 与 权威 属性 的 相 
关 关 系 (r=0.484) ,发 现 部 分 积极 性 较 大 的 用 户 其 权 
威 性 也 相对 较 大 。 该 现象 表明 用 户 通 过 积极 使 用 博客 
平台 有 助 于 提升 权威 性 ,拥有 较 高 权威 性 的 博客 在 博 
客 平台 相对 活跃 。 基 于 指数 和 R 指数 思想 的 博文 影 
响 力 计算 结果 标准 化 值 如 表 7 所 示 : 


表 7 博客 博文 影响 力 TOP20( 基于 he 排序 ) 
ID as al5 al3 al6 he 有 人 。 hu Ru 

117 889 576 10 458 969 22 440 44 070 151 127. 838 2 120 122.379 8 
2 .237 323 8 141 016 18 771 14 779 148 134.372 8 87 117.588 7 
3 075 820 11 604 339 83 15 14 328 129 105.449 5 57 66. 246 63 
41 174 2 649 17 224 315 35 299 19 269 128 108.178 9 58 60.227 21 
55 745 1 582 8 975 895 30 769 42 448 127 91. 875 53 135 101.369 4 
176 1 068 9 869 721 12 362 18 722 127 110.734 2 69 75.074 87 
Cr 218 980 72 209 85 542 916 103 610 126 637 121 87. 804 9 74 53.601 82 
41 757 13 56 10 770 163 34 503 30 632 120 102.089 9 86 84.253 51 
a 2 347 754 712 7 858 331 2 809 25 643 120 115.6546 84 98.263 55 
a 412 323 347 4 875 996 13 897 10 904 120 107.415 8 76 78.117 06 
425 437 243 4 075 926 S151 7 455 120 100.9392 57 61.4246 
> pk? 71 964 325 4 700 998 10 042 8 111 115 104.250 1 61 67. 069 23 
《9 57 081 903 7 101 441 862 914 114 97.301 29 11 12.836 9 

14 677 221 357 3 705 580 5 631 5 229 114 93.408 88 45 44.336 
15 40 247 1 279 8 528 227 38 743 59 184 112 95. 189 95 107 98.111 14 


从 表 7 计算 结果 看 ,bh 指数 克服 了 简单 求 和 的 数 
学 逻辑 缺陷 ,R 指数 弥补 了 h 指数 取 值 相同 时 无 法 区 
分 博文 影响 力 的 缺陷 。R 指数 作为 补充 说 明 指 标 , 只 
需 在 bh 指数 值 相同 时 对 比 R 指数 值 的 大 小 。 经 过 计算 
和 观察 ,虽然 he 指数 与 hq 指数 之 间 旦 显著 正 相 关 关 
系 (r=0.743), 但 两 者 仍 存 在 一 定 差异 ,he 指数 高 的 
博客 其 hq 指数 并 不 一 定 高 。 因 此 ,将 两 者 配对 使 用 可 
以 更 全 面 地 评估 博客 博文 影响 力 。 

本 文 以 甲 (ID = 1557 ) 为 例 , 生 成 系统 -个 人 分 类 
网 ,如 图 1 所 示 。 图 2 是 基于 computeModules 函数 的 
聚 类 结果 ,博客 兴趣 偏好 以 分 类 词组 形式 表示 。 

学 术 博 客 为 非 正式 学 术 交 流 主要 形式 之 一 ,从 图 


1 和 图 2 可 以 看 出 ,博客 甲 的 博文 内 容 按 兴 趣 偏好 分 
为 5 类 ,涵盖 科研 科普、 学 习 、 教 学 和 生活 等 方面 , 同 
时 满足 甲 的 学 术 和 社交 需求 。 加 权 结 果 按 权重 排序 
后 ,发 现 科 学 计量 学 研究 和 生活 点 滴 类 博文 数量 最 多 ， 
其 中 科学 计量 学 研究 主要 以 博客 资讯 .观点 评述 ,科研 
笔记 海外 观察 和 论文 交流 等 形式 呈现 。 基 于 社区 划 
分 结果 可 提取 分 类 词组 "科学 计量 学 .生活 点 滴 " 作为 
博客 兴趣 偏好 标签 。 

基于 上 述 研 究 ,本 文 随机 选择 用 户 甲乙 、 丙 (ID 
分 别 为 1 557 .5 430 .287 179 ) 作 为 示例 ,利用 用 户 画 像 
模型 UPM 得 到 如 表 8 所 示 的 学 术 博 客 用 户 画 像 , 表 9 
为 各 指标 评判 国 值 。 
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科学 计量 学 研究 


科普 小 兵 
度 鼓 


科 林 散 叶 不 
科 文 交汇 中 医 国粹 打油诗 词 
用 译 海 书评 书 介 生活 点 滴 


4 
区 
及 


论文 交流 海外 观察 观点 评述 科普 集锦 教学 心得 _ 诗 词 雅 集 生活 其 他 
博客 资讯 科研 笔记 人 文 社 科 人 物 纪 寻 到 片 百科 
1 系统 -个 人 分 类 二 分 网 络 
教学 心得 
人 文 社 科 
诗词 雅 集 
博客 资讯 王 
论文 交流 
观点 评述 芒 
海外 观察 
科研 笔记 
科普 集 饥 
人 物 纪事 
图 片 百 科 
生活 其 他 辕 
| 人 二 伍 后 友 拭 
把 辣 站 虑 下 显 册 枚 议 卢 邯 邢 糙 艾 长 衬 
中 车 典 ”名 构 舍 羽 闹 习 渊 地 长 宁 羽 明 上 蝶 
名 恬 幅 唱 和 二 流芳 和 琉 中 志 
对 加 
起 
图 2 系统 -个 人 分 类 网 络 的 聚 类 
表 8 学 术 博 客 用 户 画 像 示例 表 9 各 指标 评判 阅 值 
维度 甲 乙 再 等 级 指标 
基本 属性 ”头衔 研究 员 副教授 教授 ” Q ' "1 
等 级 5 级 4 级 5 级 H [0.212 805 ,0.004 327] [0.311 567, 0.005 86] [151,54] [135,15] 
究 领 雪 管理 综合 求 科学 言 息 科 学 
人 本 地 球 科学 信息 科学 M [0.004 309 ,0.001 606] [0.005 831,0.003 348] [53,39] [14,8] 
积极 性 V 0.057 538 0.000 44 0.005 182 
等 级 H L H C [0.001 604 ,0.000 58] [0.003346,0.002014] [38,21] [7,5] 
权威 性 Q 0.311 567 0. 003 292 0. 040 225 
等 级 H 5 H 从 表 8 中 可 以 看 出 ,人 研究 领域 的 差异 在 一 定 程度 
影响 力 阅读 影响 力 (107,92.27) (52,42.12) (108 ,94.22) ek Ss ST 
等 级 M H 影响 博客 的 兴趣 偏好 ,尤其 是 学 术 兴 趣 点 。 用 户 甲 丙 
双响 力 0419) 《72) 《0761.89) 通过 在 博客 平台 长 期 持续 贡献 优质 内 容 , 积 累 了 较 高 
于 
兴趣 偏好 科学 计量 学 海外 观察 科研 教学 的 权威 性 和 较 大 的 影响 力 , 均 可 认为 是 科学 网 博客 的 
后 汪 占 滴 生活 占 滴 科 . 蔓 了 ~ ae 多、 双 Y Ty 
竺 党 局 痢 A 科普 札记 优质 用 户 ,用户 乙 的 表现 则 较为 普通 。 上 述 用 户 画 像 
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的 结果 可 有 多 种 用 途 ,在 精准 营销 情境 下 ,平台 管理 员 
根据 运营 需求 ,结合 用 户 画 像 的 结果 可 识别 出 不 同 维 
度 的 高 .中 ,普通 等 特征 的 用 户 并 开展 差异 化 营销 , 增 
强 平台 的 核心 竞争 力 ;结合 用 户 研 究 领 域 和 兴趣 偏好 
标签 为 各 领域 的 用 户 尤 其 是 新 用 户 有 针对 性 地 推荐 本 
领域 的 优质 博客 .博文 ,达到 精准 推荐 和 提升 用 户 冷 启 
动 期 间 满 意 度 的 目的 。 用 户 还 可 以 直接 搜索 感 兴趣 的 
标签 来 查找 相关 用 户 的 信息 资源 ,为 好 友 关 系 的 建立 、 
学 术 交 流 ,知识 共享 葛 定 基础 ,提高 用 户 对 学 术 博 客 平 
合 服务 的 满意 度 。 


对 学 术 博 客 为 代表 的 在 线 学 术 社 交 平台 开展 用 户 
画像 研究 具有 一定 的 学 术 价值 和 现实 意义 。 本 文选 择 
科 各 网 博客 用 户 行为 数据 为 研究 对 象 ,以 用 户 画像 理 
论 汶 基础 ,从 基本 属性 .积极 性 .权威 性 ,博文 影响 力 和 
heehee 
实际 展示 了 具有 代表 性 的 用 户 画像 示例 。 提 出 了 标记 
博客 用 户 特征 的 一 些 方法 包括 :中 选择 炉 权 法 确 
嗲 据 项 权重 系数 ;四 从 博文 阅读 和 博文 互动 情况 两 
人 视角 完善 博文 影响 力 评估 指标 体系 ,与 正式 文献 交 
浇 浏 科学 计量 评价 在 方法 上 保持 了 一 致 性 ,利用 R 指 
数 弥 补 h 指数 无 法 区 分 同 值 情况 的 不 足 ;!@) 基 于 系统 
分 疾 与 个 人 分 类 之 间 存 在 的 二 分 网 络 关系 ,生成 系统 
分 器 - 个 人 分 类 加 权 二 部 图 并 划分 社区 ,提取 博客 兴 
趣 炉 好 标签 。 通 过 对 博客 用 户 画 像 ,可 以 有 效 识别 出 
平 侈 的 用 户 特征 差异 ,服务 平台 的 精准 营销 ,提高 冷 启 
动 时 期 的 用 户 体验 。 由 于 数据 集 的 限制 ,本 文 没有 从 
博文 内 容 抽取 用 户主 题 偏 好 , 没 能 考虑 时 间 对 主题 偏 
好 和 其 他 指标 特征 的 影响 。 未 来 笔者 会 结合 时 域 的 概 
念 对 不 同时 间 窗口 下 的 用 户 行为 数据 特征 ,基于 博文 
的 内 容 提取 用 户主 题 偏好 ,得 到 更 有 意义 的 学 术 博客 
平台 用 户 画 像 。 
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Construction and Empirical Study of User Portrait Model of Academic Blog : 
Taking ScienceNet as an Example 
Yuan Run Wang Qi 
' Library of Jiangsu University, Jiangsu. 212013 
”Institute of Science and Technology Information, Jiangsu University, Jiangsu 212013 
Abstract: [Purpose/significance | User portrait marks the behavioral characteristics of academic groups, which 
provides basis for user identification, precise marketing of academic social platform and improvement of user experience 
durifig cold boot period. [Method/process| The public users behavior data is obtained and processed by using Python 
axdh R language. The model of user portrait is constructed from five dimensions : user basic attribute ，positivity ，authority , 
blegdpost influence and interest preference. The empirical study takes the blog users behavior data of Science Web as an 
example. | Result/conclusion | This paper proposes specific indicators and calculation methods to characterize the user 
cliaracteristics of academic blogs, which shows the user portrait model has certain theoretical significance and application 
value for the management and operation of academic social platforms. 


JIKeywords: academic blog user portrait R language case analysis 
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